信息可视化的发展与思考
信息可视化是对抽象数据进行直观视觉呈现的研究,抽象数据既包含数值数据(如财务报表、经济数据、股票数据等),也包含非数值数据(如文本信息、地图信息、商标信息等)。信息可视化是综合图形图像处理、人机交互、人工智能、心理学、社会科学等交叉学科的研究领域。
从应用角度来讲,信息可视化可以分为文本可视化、社交媒体可视化、科学计算可视化、数据可视化、艺术品可视化、产品设计可视化、教学可视化等多种类别。从研究对象角度来讲,信息可视化可以分为面向数据本身的可视化和面向数据关系的可视化。面向数据本身的可视化,就是用图示化的手段与技术,对抽象数据进行直观表达,侧重于对数据内容本身的解析、展示、交互与演绎,比如我们生活中常用的线形图、饼状图、树状图等,就是其中的几类。面向数据关系的可视化,侧重于对数据之间关系的梳理、表达与可视化展示,这一类可视化往往需要对数据进行预先计算与处理,比如社交媒体的好友关系图等。
威廉·普莱费尔的第一张信息图标
广义的信息可视化具有悠久的历史,最早的信息可视化实践可以追溯到旧石器时代,那时人们在岩画或陶土上通过图形图画的形式来记录星象运动、绘制导航地图、制订农作物种植计划等。18世纪开始,信息可视化开始形成科学、普适的方法论,苏格兰的著名政治经济学家威廉·普莱费尔(William Playfair)开创了图形统计方法,他提出了三种标准化的数据可视化方法,即线形图、条形图、饼状图,这三种方法沿用至今,并发展出了多种变化形式。随着20世纪计算机图形图像技术的发展,信息可视化进入计算时代。1987年美国图形学特别兴趣小组(ACM SIGGRAPH)出版了《科学计算中的可视化》特刊,在此之后,电气和电子工程师协会(IEEE)等国际学术组织相继举办了多次信息可视化领域的学术会议。
信息可视化的过程与文学翻译的过程类似,是将数据“语言”翻译成视觉“语言”。在翻译的过程中,也要遵循“信、达、雅”的原则:视觉转化要忠于数据本身,不偏离、不遗漏;视觉表达要清晰易懂,不晦涩、不混乱;视觉设计要优雅美观,不冗余、不低俗。
20世纪80年代,苹果公司发布麦金托什电脑(Macintosh),将图形用户界面带入大众市场,人机交互的相关研究如井喷般增长,信息可视化也由原本的数据静态呈现,发展为交互式的呈现方式。面向标准用户界面规范WIMP(即视窗[Window]、图标[Icon]、选单[Menu]、指针[Pointer])的信息可视化研究与实践,由传统的少量信息呈现,转型为大量信息呈现,通过鼠标选择、拖拽、悬停、点击等交互方式,让用户通过交互的可视化手段得到更多的信息。比如谷歌地图(Google Map)融合多种交互手段,将全球的地理信息可视化展示与呈现出来。近年来,计算机仿真技术发展突飞猛进,虚拟现实、增强现实等沉浸式技术大量涌现,成为人机交互领域的前沿研究方向。沉浸式科技的发展,使得信息可视化从二维世界迈向了三维世界。维度的提升带来的收益是巨大的,信息不再以二维的方式折叠呈现,尤其对于复杂对象的信息可视化,三维立体空间可以将数据本身和数据关系同时呈现,而不会让用户觉得复杂和冗余。比如MNIST手写字符数据库通过三维可视化的方式呈现,可以更容易地梳理清楚数据之间的关系。
麦金托什电脑
随着大数据时代的到来,面向海量数据的信息可视化已经成为当前研究与实践的潮流。IBM沃森健康的副总裁阿尼尔·贾因(Anil Jain)提出了大数据的5V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),这些特点也正是传统信息可视化模式转型为大数据可视化的挑战。如何在海量的低价值密度信息中,分析、整理、挖掘出满足用户需求的直观的、有价值的信息,并通过人机交互的可视化手段进行呈现,是大数据可视化的一个发展趋势。大数据可视化在经济、金融、互联网、交通、教育等领域均有非常广泛的应用前景,比如图1就展示了Martin Grandjean将开源网站OpenFlights.org上的航班飞行数据进行可视化展示的案例,从可视化结果中可以直观地看出世界各地的机场规模、航线运力等信息。
图1 全球3200 个机场的航路图可视化,图片来源http://www.martingrandjean.ch/connectedworld-
air-traffic-network/
2016年3月,由谷歌DeepMind团队开发的人工智能围棋程序AlphaGo以四胜一负的成绩击败韩国棋手李世石,将人工智能的研究浪潮推向了顶峰。AlphaGo的主要工作原理是“深度学习”,它是现今机器学习领域最前沿的研究方向。深度学习的成功涉及人工神经网络的运用,而深度神经网络的性能很大程度上取决于网络结构。多数研究者对于为什么有的网络结构运行性能好,而有的网络性能不好,还缺乏深层次的认识。并且,深度神经网络有成千上万的参数,用户在调整参数时需要耗费大量的时间与精力。因此,迫切需要用可视化的手段来分析和理解深度神经网络,并进行交互式参数调整和可视分析研究。
综上所述,信息可视化在未来几年将由传统的低维可视化向高维可视化发展,由静态可视化向动态可交互的智能可视化发展。这些新技术在虚拟现实和增强现实、大数据分析、人工智能等几个前沿领域中的应用前景广阔。
信息可视化已经融入了我们工作与生活的方方面面,笔者挑选了几个经典的信息可视化实践案例,从不同的角度介绍信息可视化的应用及其前景。
文本可视化是信息可视化的一个重要分支,它在媒体、社交、商业、金融、法律等领域都有很多应用。文本可视化涉及自然语言处理、数据挖掘、人机交互、计算机图形学等领域,是交叉学科研究方向。随着信息技术的迅猛发展,线上阅读正在逐渐取代纸质文本的阅读,互联网的海量信息中难免掺杂着冗余甚至虚假的信息,文本可视化可以帮助用户更高效地分析文本,提升用户的阅读体验。文本可视化首先从文本中抽取关键词,再根据每个关键词出现的频率数等来决定关键词的重要程度,最后通过字体、颜色、形状、排版等视觉方式,对关键词进行重新排列展示。网络上有很多开源的文本可视化网站,比如Wordle、Tagul、WordItOut等。图2是笔者使用Wordle工具,对清华大学官方网站关于艺术博物馆2016年9月开馆的英文新闻报道文章进行文本可视化的展示结果。然而我们目前经常接触的文本可视化大多停留在小量文本和静态展示层面,在大数据时代,需要大规模信息的可视化表达方法和成熟的交互文本可视化技术出现。
图2 Wordle 可视化结果,来源http://www.wordle.net/create
在文本可视化的基础上,衍生出了社交媒体可视化。据统计,截至2016年12月,我国网民规模达7.31亿,微信朋友圈、QQ空间、微博是网民使用最多的社交类应用,分别占比85.8%、67.8%和37.1%。社交媒体的流行,使得社交平台上的文本信息量和信息类型出现了爆炸式增长。而与文本可视化面临的问题相似,社交媒体可视化也存在着社交信息冗余等问题,在当今这个“快时代”,繁杂的信息占用了用户大量的宝贵时间。清华大学自然语言处理组的研究人员基于自然语言处理与信息可视化技术,开发了“围脖关键词”应用,它利用自然语言处理的关键词抽取技术,分析并提取代表用户兴趣的关键词,并采用文本可视化技术对关键词进行可视化,便于用户快速了解自己、好友、主题等的关键词,为用户节省宝贵的筛选时间。图3是笔者使用“围脖关键词”对“清华大学”微博生成的文本可视化结果。与文本可视化略有不同,另一类社交媒体可视化,是对社交媒体统计数据的可视化展示。比如在微信平台,由“清博大数据”开发的“清博微传播”应用,可以生成微信用户及微信公众号的可视化数据统计与分析,如图4所示。笔者使用“清博微传播”应用生成了“清华大学美术学院”公众号的信息可视化结果,可以看到公众号的发文统计、阅读统计、点赞统计等信息。通过这类应用,用户可以快速知道自己或者他人在社交平台上的影响力。
图3 “围脖关键词”应用生成的“清华大学”微博关键词,来源http://app.thunlp.org/
图4 “清博微传播”生成的“清华大学美术学院”公众号可视化统计
另一类应用比较广泛的可视化实践是数据之间关系的可视化,比如家族谱图、飞机航线图、社交关系图等。微软亚洲研究院团队2009年发布了Libra可视化学术搜索工具(微软学术搜索的前身),它能够生成用户的学术合作关系图以及研究领域图等。图5为用Libra生成的学者关系海报,在2008年第17届国际万维网会议中获得了同行学者的好评。
图5 2008年第17届国际万维网会议Libra微软学术关系可视化海报
在科学计算可视化方面,本文作者之一针对大数据处理中的深度卷积神经网络方法,提出了一种可视化的分析手段。深度卷积神经网络是机器学习方法的一个分支。尽管目前机器学习已经在信息检索、数据挖掘、语音识别、计算机图形学、人机交互等领域得到了广泛的应用,然而由于它令人费解的功能和模糊的工作机制,使得很多用户对于机器学习一知半解,只是把它当作一个黑箱工具。为了得到更好的实验结果,用户只能进行反复的试错来调整参数。所以,一个透明、可解释的可视化系统,是机器学习领域的学者和业界人士急需的高效率工具。图6是刘世霞团队的研究结果,他们使用可视化的分析手段,辅助用户对深度学习的数学模型进行更好的理解、诊断和优化,用户可以了解深度卷积神经网络中每个神经元的作用和神经元之间的关系,还可以诊断模型中可能出现的问题并进行优化修改,以便更高效地得到收敛的实验结果。机器学习和人工智能发展的势头迅猛,然而深度学习也只是机器在某一个垂直领域的智能,距离人类智能相去甚远,信息可视化在人工智能的其他层面还将有更广泛的应用。
图6 清华大学刘世霞团队研究深度卷积神经网络可视化结果© 2017 IEEE. Reprinted, with permission, from IEEE Transactions on Visualization and Computer Graphics
随着数据规模的攀升,信息可视化面临着巨大的机遇与挑战,我们身边有大量的数据与我们息息相关,却很难得到有效的视觉呈现,比如国民经济发展数据年鉴等,若非专业人员则很难看懂。现有的传统可视化方法已经越来越难以满足用户的需求,尽管目前在技术上已经有一些关于高维数据可视化、多变量数据可视化和分层次数据可视化的研究方法,但从视觉设计角度来讲,这些方法的视觉呈现依然略显复杂,不够直白。清华大学在与亿阳集团的城市大数据创新应用设计项目中探索了大数据可视化的实践方法,该项目的目标是探索城市大数据的创新应用,项目基于亿阳的手机信息数据,提出了数据矩阵的概念(图7),即结合更多的开放数据,形成多种应用的平台。比如在智能交通的应用方面,可以通过对道路车流的实时监控,结合对路网的分析,提示拥堵预警,进行分流。
图7 数据矩阵概念模型
图像分辨率是我们日常都要接触的名词,随着硬件技术的发展,图像分辨率越来越高,存储的信息也越来越多。微软亚洲研究院针对10亿像素图像(Gipapixel Image)开展了信息可视化相关研究。10亿像素图像的信息量非常大,直接对图像进行浏览比较困难。比如用户想要浏览一张5亿像素的图片,使用电脑分辨率为1920×1080,电脑屏幕尺寸为24英寸,那么用户屏幕的像素大约有200万像素(Megapixel),如果将图片全屏放大到实际像素大小,此时用户只能浏览这张图片的两千分之一。于是研究人员开发了一种可交互的可视化注释方法,当用户在移动或缩放图片时,在当前视野绘制矩形,就可弹出相应的注释信息,帮助用户更好地理解图像的内容。图8是研究人员对宽度65536像素、长度32768像素的波士顿城市照片进行信息可视化的结果,通过交互式可视化手段,用户可以放大缩小城市图片,当用户浏览到位于城市中心的一家星巴客咖啡店时,还可以听到咖啡店的语音。随着图片分辨率日益攀升,相信这种交互式的图像可视化方法将得到更大范围的推广。
图8 波士顿城市照片信息可视化
另一个非常值得一提的信息可视化研究领域就是文化遗产信息可视化。文化遗产作为古代人民智慧的结晶,具有非常悠久的历史和极高的艺术价值。然而,大部分文化遗产具有不可触摸、不可移动、不可侵入性的特点,使得人们在对其进行观赏时,只能远观而不得“亵玩”。随着文化遗产数字化技术的发展,越来越多的文化遗产以数字的形式被记录下来。如果没有相关的知识储备,面对数字化副本时,观众只能凭借相关介绍和导览员的讲解对其内容本身进行解读。文化遗产信息可视化,就是对数字化文化遗产的信息进行剖析、阐释和加工,并以可视化的方式呈现到观众面前。比如故宫博物院、北京大学和微软亚洲研究院等单位合作完成的“走进清明上河图”(图9)沉浸式数字音画展示项目,采用千兆高分辨率的数字影像,根据画卷情节安排了51个场景和700多段人物对话,通过自然的人机交互方式,让观众与画作中的人物进行互动体验,极大地促进了文化遗产的传播。
图9 “走进清明上河图”音频可视化局部展示,图中节点表示声源,箭头反映了发声顺序
信息可视化延伸到体育领域也可以收到令人惊叹的效果。针对2016年里约奥运会,英国《卫报》制作了相关专题:“奥运冠军是如何拿到金牌的?”其中涉及游泳、田径、体操等多个项目,共计11个数据可视化产品。他们采用动态图形和互动可视化的方法,将选手从出发到抵达终点的过程进行全局的动态可视化展示,让观众可以非常清晰地了解选手夺冠的全过程。图10是我国游泳选手孙杨夺得里约奥运会200米自由泳金牌的可视化展示,通过50米、100米、150米、200米四个动态可视化视图,展示了夺冠的全过程。
图10 英国《卫报》关于里约奥运会孙杨夺得200米自由泳金牌的可视化展示
信息可视化应用虽然已经渗透到我们工作和生活的各个方面,但是可视化发展到今天仍然有很多问题值得探讨。
主要是可视化呈现本身存在很多挑战,尽管阅读可视化图表已经比直接阅读枯燥的数据容易多了,但是当前的呈现方式与人的认知习惯相比还不够直观。另外,目前的信息可视化方法只能呈现已有信息,对于那些缺失的关键信息却没有办法呈现。比如在文化遗产信息可视化领域,针对保存完好的文物,我们可以对其进行完整的信息可视化展示,而针对破损、碎裂的文物,由于文物碎片存在风化、腐蚀、表面信息缺失等特点,目前还没有成熟的技术对其进行数字化复原,这就导致文物本身蕴含的大量宝贵信息的浪费。希望未来的信息可视化技术不仅能展示完整信息,还能根据已有信息对缺失信息进行补全。
再有,信息可视化与大数据分析和人工智能的发展是密不可分的。大数据的产业规模与日俱增,数据量级迅速攀升,现有的多维数据、多变量数据、分层次的信息可视化技术方法还无法满足对大数据进行高效和精确的可视化展示的需求。另外,随着数据数量的上升,数据的质量可能变差,可用性变低,信息可视化还面临着有效信息筛选的难题。人工智能的发展使得机器越来越接近人的智慧,然而机器终究不能取代人的地位,关键的信息决策与判断还需要人工介入,只有把人和机器的智能相结合,通过智能人机交互的方式,才能使信息可视化更加高效和精准。
在艺术与设计领域,信息可视化还有非常广阔的待开发的应用前景。比如在艺术品呈现领域,自1990年美国国会图书馆启动“美国记忆”项目以来,博物馆数字化研究在全球遍地开花;谷歌2011年推出“艺术计划”,迄今为止展示了1200多家顶级博物馆和档案馆中的精选内容。然而,大部分的博物馆数字化项目仅停留在数字化艺术品的展示上,并没有对艺术品的信息进行互动呈现。“数字化”的博物馆与传统博物馆相比的优势在于,观众不仅能欣赏远在千里之外的艺术品,还可以使用信息可视化的手段与它进行互动。虽然目前已有相关的前沿研究出现,但要真正落到实处并全面推广,还需要几年的发展过程。相信交互式的艺术品可视化实践,将成为很有前景的应用方向。
来源:《装饰》杂志2017年第4期,原文《信息可视化的发展与思考》,作者:付心仪、刘世霞(通讯作者)、徐迎庆(通讯作者),文字和注释有删减。
本期编辑:某个远方
《装饰》杂志欢迎您的来稿
E-mail:zhuangshi689@263.net
地址:北京市海淀区清华园清华大学美术学院A431 中国装饰杂志社编辑部
电话:010-62798189 010-62798878
邮编:100084
官网:http://www.izhsh.com.cn
建议邮件 书信亦可
在微信中回复“投稿”即可获得投稿须知